Vendita all’ingrosso

Introduzione

Il dataset considerato in quest’analisi riguarda le spese annuali dei clienti di un commerciante all’ingrosso. I dati sono espressi in unità monetarie ed i clienti vengono raggruppati in due grandi categorie: i luoghi di ristorazione (Horeca) ed i negozi di vendita al dettaglio (Retail). Vengono elencate di seguito le variabili presenti e le relative informazioni:

  • Channel [Categoriale], tipologia di venditore (Heroca | Retail);
  • Region [Categoriale], regione di provenienza del venditore (Lisbon | Oporto | Other);
  • Fresh [Quantitativa], spesa annua di prodotti alimentari freschi;
  • Milk [Quantitativa], spesa annua di prodotti alimentari derivanti dal latte;
  • Grocery [Quantitativa], spesa annua di prodotti riguardanti drogheria;
  • Frozen [Quantitativa], spesa annua di prodotti surgelati;
  • Detergents_Paper [Quantitativa], spesa annua di detergenti e prodotti di carta;
  • Delicassen [Quantitativa], spesa annua di prodotti di gastronomia.
##   Channel Region Fresh Milk Grocery Frozen Detergents_Paper Delicassen
## 1  Retail Others 12669 9656    7561    214             2674       1338
## 2  Retail Others  7057 9810    9568   1762             3293       1776
## 3  Retail Others  6353 8808    7684   2405             3516       7844
## 4  Horeca Others 13265 1196    4221   6404              507       1788
## 5  Retail Others 22615 5410    7198   3915             1777       5185
## 6  Retail Others  9413 8259    5126    666             1795       1451


Di seguito riportiamo le rappresentazioni grafiche delle variabili:


Come si può notare dai grafici e dalle tabelle di frequenza, gli ordini piazzati dalla categoria Horeca sono decisamente più considerevoli di Retail (più del doppio). Analogamente, la categoria Others presenta decisamente molti più valori rispetto a Lisbon e Oporto.



Dal grafico precedente si nota come le variabili continue presentino distribuzioni differenti, nonostante le relative medie siano pressoché simili. É importante sottolineare la notevole presenza di outliers che potrebbe suggerire un’analisi orientata alla loro eliminazione. Si decide di non procedere in questo senso proprio per la tipologia di dato che esse rappresentano. Essendo rappresentazioni di spese non ci si aspetta che ci siano errori di misurazione (o perlomeno non se ne ha la certezza), quindi per quanto possano essere anomali ed elevati, essi hanno comunque una loro probabilità di realizzazione e quindi risulterebbe fuorviante condurre un’analisi senza di essi.

L’obiettivo di questo studio è quello di individuare le relazioni che intercorrono tra le variabili al fine di generare dei modelli previsionali. Una preliminare fase di analisi esplorativa dei dati può quindi risultare utile.



Analisi esplorativa dei dati


Consideriamo le variabili quantitative condizionatamente alle due variabili qualitative (Region e Channel) per scoprire eventuali relazioni. Partiamo quindi con la variabile Region:


Dai boxplot delle quantitative condizionate alla variabile Region emerge come, quest’ultima, non influenzi le distribuzioni, in quanto i boxplot sono molto simili.


Procediamo quindi con l’analisi passando alla variabile qualitativa Channel:


Fatta esclusione per Delicassen, ora, le distribuzioni mostrate dai boxplot risultano essere significativamente differenti, sintomo di una sostanziale influenza della variabile Channel.

Per studiare un’eventuale relazione di dipendenza tra le variabili quantitative, trasformiamo quest’ultime in fattori utilizzando 3 livelli: low, medium e high.


I range considerati sono i seguenti:

Variabile Low Medium High
Fresh 0 - 4000 4001 - 10000 10001 - INF
Milk 0 - 2000 2001 - 6000 60001 - INF
Grocery 0 - 2500 2501 - 6000 60001 - INF
Frozen 0 - 4000 4001 - 10000 10001 - INF
Detergents_Paper 0 - 500 501 - 3000 3001 - INF
Delicassen 0 - 500 501 - 1500 1501 - INF


Possiamo quindi procedere allo studio dell’indipendenza tra le variabili mediante il chi-squared test:

Fresh Milk Grocery Frozen Detergents_Paper Delicassen
Channel 0.008108 2.2e-16 2.2e-16 5.836e-06 2.2e-16 0.002112
Region 0.7205 0.5231 0.4224 0.4768 0.8972 0.284


A conferma di quanto detto sopra, si evince come la variabile Channel influenzi in modo deciso i valori delle spese, in quanto tutte le variabili presentano un p-value inferiore a 0.05, implicando quindi la presenza di una relazione di dipendenza.

Per quanto riguarda la variabile Region, si nota come i valori del p-value siano superiori alla soglia di 0.05, implicando quindi il rifiuto dell’ipotesi nulla.


Passiamo ora alla rappresentazione grafica delle variabili quantitative tradotte in classi:


Plot degli istogrammi relativi alle variabili quantitative a cui sovrapponiamo le curve di densità.

Si notano delle distribuzioni unimodali.


Procediamo ora con il riportare gli scatterplot di tutte le coppie formate da variabili quantitative.


Dagli scatterplot delle variabili quantitative condizionate alla variabile categoriale Region, emerge come, al variare della regione, i punti sembrano mantenere lo stesso pattern, sebbene cambi la numerosità(come già visto nella sezione riguardante le descrizione del dataset).



Per quanto riguarda gli scatterplot condizionati alla variabile qualitativa Channel, si può notare come, cambiando il canale di vendita, i punti seguano pattern diversi, con ciò si può concludere che Channel è più influente sull’insieme dei dati rispetto a Region.

A seguito di queste considerazioni, nel momento in cui andremo a sviluppare i modelli lineari, considereremo solo l’interazione della variabile categoriale Channel, ed, eventualmente, l’interazione della stessa con la variabile esplicativa.


Ora analizziamo la matrice di correlazione con il comando corrplot per vedere quali sono gli indici di correlazione tra le variabili presenti nel dataset.


I dati appena ottenuti sono facilmente verificabili graficamente con gli scatterplot visti in precedenza. Ad esempio Detergents_Paper e Grocery sembrano effettivamente seguire un andamento lineare nel loro grafico.

Combinando questi dati con le analisi fatte in precedenza, si decide, quindi, di selezionare le 4 coppie di variabili che possiedono una maggiore interazione tra di esse al fine di creare dei modelli di previsione lineare. Eccole elencate:

  1. Detergents_Paper ~ Grocery: 0.92
  2. Milk ~ Grocery: 0.73
  3. Detergents_Paper ~ Milk: 0.66
  4. Milk ~ Delicassen : 0.41

In seguito considereremo, nell’analisi, anche la possibilità di utilizzare la variabile esplicativa trasformata, quindi con una delle seguenti trasformazioni:

  1. Logaritmica
  2. Square root
  3. Quadratica

Infatti, in molti casi, applicare delle trasformazioni alle variabili può incidere significativamente sulla bontà del modello.



Regressione lineare

Si seguirà un procedimento analogo per ogni coppia di variabili. Come già accennato esso sarà composto da:

  1. analisi di correlazione con le trasformazioni di variabili;

  2. creazione dei modelli lineari;

  3. analisi della bontà del modello.


Detergents_Paper ~ Grocery.

  • Indice di correlazione senza trasformazioni: 0.9246407

  • Indice di correlazione con trasformazione logaritmica: 0.6667038

  • Indice di correlazione con trasformazione square root: 0.8505584

  • Indice di correlazione con trasformazione quadratica: 0.8138609

Dopo aver valutato gli indici di correlazione con le diverse trasformazioni abbiamo deciso di utilizzare le variabili senza trasformazioni.


Gli R^2 relativi ai tre modelli sono i seguenti:

  1. Detergents_Paper ~ Grocery: 0.855

  2. Detergents_Paper ~ Grocery + Channel: 0.8628

  3. Detergents_Paper ~ Grocery + Channel + Grocery * Channel: 0.8919


Output AIC ed ANOVA:


Dopo aver creato i tre modelli abbiamo deciso di utilizzare quello con l’interazione, considerando, altresì, i tre relativi AIC ed il test ANOVA.

Info Value Pvalue Decision
Skewness 3.400e+00 0.06518 Assumptions acceptable
Kurtosis 2.970e+03 0.00000 Assumptions NOT satisfied
Heteroscedasticity 2.995e+00 0.08351 Assumptions acceptable


Dai grafici e dai risultati sulle assunzioni, mostrate dall’oggetto gvlma, si può notare come vi sia omoschedasticità ed una discreta gaussianità, inoltre sembra esserci una relazione lineare tra le variabili Detergents_Paper e Grocery.



Milk ~ Grocery

  • Indice di correlazione senza trasformazioni: 0.7283351

  • Indice di correlazione con trasformazione logaritmica: 0.5970228

  • Indice di correlazione con trasformazione square root: 0.7136706

  • Indice di correlazione con trasformazione quadratica: 0.5693098

In seguito alla valutazione degli indici di correlazione con le diverse trasformazioni abbiamo deciso di utilizzare le variabili senza trasformazioni


Gli R^2 relativi ai tre modelli sono i seguenti:

  • Milk ~ Grocery: 0.5305

  • Milk ~ Grocery + Channel: 0.5288

  • Milk ~ Grocery + Channel + Grocery * Channel: 0.5342


Output AIC ed ANOVA:


Secondo gli stessi criteri di valutazione utilizzati per la coppia di variabili precedente abbiamo deciso di utilizzare il modello semplice, in quanto, nonostante il modello con l’interazione abbia AIC minore e R^2 aggiustato maggiore, la differenza non è così significativa, come emerge dal test ANOVA, pertanto abbiamo preferito utilizzare un modello più semplice possibile.

Info Value Pvalue Decision
Skewness 832.04 0.00000 Assumptions NOT satisfied
Kurtosis 27401.47 0.00000 Assumptions NOT satisfied
Heteroscedasticity 16.92 3.896e-05 Assumptions NOT satisfied


Dai grafici e dai risultati sulle assunzioni mostrate dall’oggetto gvlma, si può notare come vi sia eteroschedasticità, non gaussianità, e non linearità nell’associazione tra la variabile Milk condizionatamente a Grocery.



Detergents_Paper ~ Milk

  • Indice di correlazione senza trasformazioni: 0.6618157

  • Indice di correlazione con trasformazione logaritmica: 0.5635915

  • Indice di correlazione con trasformazione square root: 0.6578422

  • Indice di correlazione con trasformazione quadratica: 0.5154587

In seguito alla valutazione degli indici di correlazione con le diverse trasformazioni abbiamo deciso di utilizzare le variabili senza trasformazioni


Gli R^2 relativi ai tre modelli sono i seguenti:

  • Detergents_Paper ~ Milk: 0.438

  • Detergents_Paper ~ Milk + Channel: 0.5752

  • Detergents_Paper ~ Milk + Channel + Milk * Channel: 0.6205


Output AIC ed ANOVA:


Considerando i tre modelli, quello semplice, quello con l’aggiunta della variabile categoriale Channel ed, infine, quello con anche l’interazione tra la variabile esplicativa Milk e Channel, abbiamo deciso di utilizzare quest’ultimo, considerando anche quanto mostrato dagli output relativi ai tre AIC ed al test ANOVA

Info Value Pvalue Decision
Skewness 1.244e+03 0.00000 Assumptions NOT satisfied
Kurtosis 3.482e+04 0.00000 Assumptions NOT satisfied
Heteroscedasticity 5.509e-02 0.814426 Assumptions acceptable


Dai plot sui residui, dal qqnorm e dai risultati delle assunzioni mostrate dall’oggetto gvlma, ne evince come vi sia omoschedasticità, ma per quanto riguarda linearità e gaussianità il modello non rispetta le assunzioni stabilite.



Milk ~ Delicassen

  • Indice di correlazione senza trasformazioni: 0.4063683

  • Indice di correlazione con trasformazione logaritmica: 0.2768891

  • Indice di correlazione con trasformazione square root: 0.4139261

  • Indice di correlazione con trasformazione quadratica: 0.2877589

Dagli indici di correlazione emerge come, in questo caso, sia meglio considerare la radice quadrata della variabile esplicativa Delicassen


Gli R^2 relativi ai tre modelli sono i seguenti:

  • Milk ~ Delicassen: 0.1713

  • Milk ~ Delicassen + Channel: 0.3377

  • Milk ~ Delicassen + Channel + Delicassen * Channel: 0.3381


Output AIC ed ANOVA:


Sebbene i tre R^2 non siano alti, quindi i tre modelli non spiegano bene i dati, dopo aver valutato anche i tre AIC e l’output del test ANOVA, emerge come il modello senza interazione ma con l’aggiunta di Channel sia il più adatto, in quanto, nonostante non sia quello con R^2 maggiore, ha AIC minore e l’ANOVA mostra che l’aggiunta dell’interazione non è significativa (p-value = 0.2556).

Inoltre, per coerenza con quanto precedentemente detto, è preferibile utilizzare il modello più semplice possibile nel caso in cui le differenze a livello di R^2 e AIC non siano così rilevanti.

Info Value Pvalue Decision
Skewness 1331.45 0.00000 Assumptions NOT satisfied
Kurtosis 21844.71 0.00000 Assumptions NOT satisfied
Heteroscedasticity 81.05 0.00000 Assumptions NOT satisfied


Anche in questo caso, come precedentemente osservato con Milk ~ Grocery, nessuna ipotesi è rispettata, infatti osservando i grafici ed i risultati dell’oggetto gvlma, emerge come vi sia eteroschedasticità, non gaussianità, e non linearità nella relazione Milk condizionatamente a Delicassen.


Di seguito riportiamo i quattro scatterplot con le relative rette di regressione lineare:



Conclusione

Valutando i quattro modelli, secondo le loro caratteristiche, possiamo affermare che il modello più affidabile risulta essere quello basato sulla relazione Detergents_Paper ~ Grocery, mentre, i restanti tre, risultano inaffidabili.

Considerando la bontà del primo modello visualizziamo la differenza, in termini di spesa di Detergents_Paper, tra i clienti Horeca e Retail che spendono 75000 m.u. in Grocery.

La differenza, in valore assoluto, risulta essere 22155.14 m.u.




Per quanto riguarda la cluster analysis abbiamo ritenuto che, disponendo già di due variabili categoriali su cui basare i raggruppamenti, le informazioni tratte da essa sarebbero risultate irrilevanti.